data engineering Apache Spark - Cache와 Persistence storageLevel = MEMORY_AND_DISK이므로 메모리가 부족할 경우 Disk를 사용할 수 있음 CSV 뿐만 아니라 JSON, Parquet, JDBC 등에서 데이터를 읽어 여러 DataFrame 을 만든뒤 Join 을 수행해 복합적인 데이터 가공 및 분석도 가능 각 칼럼의 데이터들은 동일한 타입의 데이터를 저장하기 때문에 칼럼마다 데이터 타입에 유리한 인코딩을 사용할 수 있음 ... sparkdata engineeringdata engineering n312_SQL 기본 SELECT 특성1, 특성_2 SELECT customers.FirstName, customers.LastName SELECT 특성1, 특성_2 WHERE 특성_1 = "특정 값"; SELECT customers.FirstName, customers.LastName SELECT 특성1, 특성_2 WHERE 특성_2 <> "특정 값"; SELECT customers.FirstName, cust... data engineeringAI BootcampAI Bootcamp Apache Spark - Architecture 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있도록 해줌 Cluster Manager는 다수의 Spark 작업을 실행할 수 있도록 리소스를 관리해주는 Hadoop, AWS EMR의 YARN 혹은 Kubernetes와 같은 클러스터를 말함 사용자는 Cluster Manager에 Spark Application을 submit 하고, 이를 제출받은 Cluster Manager... sparkdata engineeringdata engineering Apache Spark - 집계 함수 를 요약한 내용입니다. 구매 이력 데이터를 사용해 파티션을 휠씬 적은 수로 분할할 수 있도록 리파티셔닝 빠르게 접근할 수 있도록 캐싱 org.apache.spark.sql.functions 패키지 참조 count countDistinct 고유레코드 수 approx_count_distinct 근사치로 구하지만 연산 속도가 빠름 first와 last min과 max 문자열도 동작이 됨 sum s... sparkdata engineeringdata engineering
Apache Spark - Cache와 Persistence storageLevel = MEMORY_AND_DISK이므로 메모리가 부족할 경우 Disk를 사용할 수 있음 CSV 뿐만 아니라 JSON, Parquet, JDBC 등에서 데이터를 읽어 여러 DataFrame 을 만든뒤 Join 을 수행해 복합적인 데이터 가공 및 분석도 가능 각 칼럼의 데이터들은 동일한 타입의 데이터를 저장하기 때문에 칼럼마다 데이터 타입에 유리한 인코딩을 사용할 수 있음 ... sparkdata engineeringdata engineering n312_SQL 기본 SELECT 특성1, 특성_2 SELECT customers.FirstName, customers.LastName SELECT 특성1, 특성_2 WHERE 특성_1 = "특정 값"; SELECT customers.FirstName, customers.LastName SELECT 특성1, 특성_2 WHERE 특성_2 <> "특정 값"; SELECT customers.FirstName, cust... data engineeringAI BootcampAI Bootcamp Apache Spark - Architecture 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있도록 해줌 Cluster Manager는 다수의 Spark 작업을 실행할 수 있도록 리소스를 관리해주는 Hadoop, AWS EMR의 YARN 혹은 Kubernetes와 같은 클러스터를 말함 사용자는 Cluster Manager에 Spark Application을 submit 하고, 이를 제출받은 Cluster Manager... sparkdata engineeringdata engineering Apache Spark - 집계 함수 를 요약한 내용입니다. 구매 이력 데이터를 사용해 파티션을 휠씬 적은 수로 분할할 수 있도록 리파티셔닝 빠르게 접근할 수 있도록 캐싱 org.apache.spark.sql.functions 패키지 참조 count countDistinct 고유레코드 수 approx_count_distinct 근사치로 구하지만 연산 속도가 빠름 first와 last min과 max 문자열도 동작이 됨 sum s... sparkdata engineeringdata engineering